Интересно, что выборка со случайным эквивалентом и выборка только тех стимулов, где есть данные по всем шести языкам, дает такие разные результаты. Что будет если взять выборку данных по всем языкам и В НЕЙ провести случайную выборку эквивалентной конструкции?
Маша предложила классификацию, которую я попробую воспроизвести.
простая переходная вида X Aux Y V (только этот случай)
простая непереходная X Aux V Y Ad, X Aux V loc, X+Y Aux V, Y Aux V X Ad (по идее исчерпывающий список, а что я забыла?)
конструкция с копулой - можно взять автоматически все случаи, где в формуле есть копула be: Y be X Ad, X be Y Ad, X be adj Y Ad, N be Xgen Y Ad, X+Y be N Ad и т.д.
некопульная конструкция со сложным глаголом - взять автоматически все случаи, где в формуле выполняется два условия: есть Aux (=нет be) и есть хотя бы одно N (вместе переходные, и непереходные) - X Aux N V Y Ad; X Aux Y N V; Xgen N Aux V Y Ad и т.д.
По идее это не исчерпывающий список, останется что-то на периферии вроде X+Y Aux V X+Ypron recp Ad, но это редкие штуки.
Вот, что получилось. Маш, что исправить? Вот саммари:
Code
df |>mutate(type =case_when(construction_type =="X Aux Y V"~"transitive",str_detect(construction_type, "Aux") &!str_detect(construction_type, "N") ~"intransitive",str_detect(construction_type, "be") ~"copula",str_detect(construction_type, "Aux") &str_detect(construction_type, "N") ~"complex verb",TRUE~"other")) |>count(type, language) |>pivot_wider(names_from = language, values_from = n, values_fill =0) |>arrange(-Looma) |>select(type, Guro, Dan_Gweetaa, Mano, Kpelle, Kono, Looma, Bamana)
type
Guro
Dan_Gweetaa
Mano
Kpelle
Kono
Looma
Bamana
transitive
44
37
46
36
32
42
61
intransitive
42
39
58
37
31
33
59
complex verb
33
49
90
56
35
31
24
copula
5
9
20
18
17
9
12
other
0
0
0
0
0
0
1
Во-вторых, есть отдельная просьба про распределение конструкций и глаголов. В первом листе stimuli_general в столбце B есть семантическая разметка глаголов. Добавь её, пожалуйста, в глагольную таблицу, которую ты будешь снова генерировать. А дальше я бы попросила сделать следующее. Посчитать для каждого глагола, сколько ему в наших языках соответствует разных конструкций из 4 типов, выделенных выше. А потом слить глаголы из одной семантической группы и посчитать для семантических групп вместе статистику по конструкциям. Грубо говоря я хочу проверить, верно ли, что у глаголов вида effect будет больше переходных конструкций, а у feeling больше сложных глаголов, т.к. более абстрактные значения языки склонны выражать метафорически.
в дан гвета есть адлоги dhi̋ɤ и dhiɤ̋, bhȁ и bhàa, которые, наверное, про одно и то же. Кроме того есть адлог loc.
в гуро есть адлоги léè и leè, lɛ̄ и lɛ, ɓa̰ и ɓā̰. Кроме того есть адлог loc.
в лома есть адлоги mà и mà̀ (с двумя знаками тона). Кроме того есть адлог loc.
в мано есть адлоги píé и píé (я не понимаю в чем разница…).
Проблемы на 15.02.2023:
В гуро ɓa̰ и ɓā̰ — разное?
В гуро ya̰ и yā̰ — разное?
Я не совсем понял, что написала МХ, так что я пока посчитал вот такое вот. Какие адлоги из разных языков встречаются друг с другом в одной расширеной конструкции внутри одного стимула?
Если из двух компонентов совпал 1, мы ставим 0.5, если из трех 1, то 0.33, если из трех два, то 0.66. Если две конструкции, то учитываем максимальное совпадение
Чем выше значение, тем больше сходство. У меня есть подозрение, что я где-то налажал (ну и я сейчас выкинул все, что я подозревал в ошибке), но оно говорит что-то не совсем дикое: огромное сходство кпелле и коно, большое сходство кпелле и мано… Чудеса…
Я преобразую все вот в такую таблицу. К language я привинчиваю количество частей. Так что, например, первые две строчки нужно читать так: в стимуле номер 1 в языке Dan_Gweetaa 2 части break и interior. Так как таблица отсортирована по номеру стимула, то больше сложных глаголов в первом стимуле нет.
Я сделал некоторый хак, который позволяет делать кластеризацию. Я завожу признаки, которые состоят из фрагмента значения и номера, в котором он встречается:
Конечно, при таком варианте получается много единичных случаев, которые удлинняют палки и в кластеризации и в нейборнете, однако таких случаев, когда во всех семи языках есть форма.
Что если посмотреть только на те стимулы, для которых есть какая-то форма (сложный глагол или нет):